第二章 随机变量及其分布
随机变量
上一章节里提到过,一个试验的样本空间里包括所有可能出现的事件,即样本点。有时我们并不关心每一个单独的事件的概率,而是某一类事件的概率;或者,有时样本空间里的样本难以描述,我们需要找一些替代的表示方式。为了应付此类场景,我们设定一个转换的函数
随机变量本质上就是 可测函数 ,相当于把样本点进行编码方便表示,不过这个“编码”不一定是整数。
用形式化的方式来表示就是:
其中
:样本空间, :事件域, :概率分布, :随机变量
:转化后的样本空间, :转化后的事件域, :转化后的概率分布(导出分布)
可知:
据我的概率论老师所说,他面试数学专业的研究生时会问:什么是随机变量?
看了上面那两段话的就知道应该回答:随机变量就是可测函数
但是他所面试的那些学生都答不上来,要么是答“emmm,随机的变量?”,要么是答非所问扯一堆其他的数学定理,这是妥妥的反面案例,大家不要学
函数
离散型随机变量及其分布律
当随机变量
对于
上面这个式子其实就展现了这个随机变量每个取值的概率的分布规律,我们使用分布律这个词来表示。对于离散的随机变量,我们也可以用表格来表示分布律:
接下来介绍几种常见且重要的分布律:
(0-1)分布
如果
参数
伯努利实验、二项分布
如果一个实验的结果只有两种结果
而若将伯努利实验独立地重复
(独立这个条件很重要,原因想必不用多说)
我们用
上式描述了n重伯努利实验的分布律,其中
这个公式很符合直觉。比如说抛硬币时,我们假定正面的概率是
可以注意到,(0-1)分布就是伯努利分布的一种特例,相当于只做了1次实验,且
。
泊松分布
在很多现实场景里我们还会遇到这样的分布:
其中
这个分布能够满足总概率为1,证明如下:
由泰勒展开我们知道,
可知原式
关于这个分布还有一个很有用的定理 泊松定理:
可以看出(真能看出吗,汗),这个式子将二项分布转化成了泊松分布。由于二项分布的计算有时计算量过大(哪怕对于计算机来说也是如此),所以在n很大的时候我们可以通过下式来近似地计算。
这也叫做用泊松分布逼近二项分布。
上面这些是根据这本教材写的,下面是另一条思考路径,可能会更清晰且更好理解。
我们可以这样理解二项分布:
将一段时间分成
在新一次的实验中,这一段时间内该事件发生
上述是二次分布的内容,那么我们会想到这样一个问题:
对每一小段时间内该事件发生的概率的估计,是不是草率了点?
如果在某一分钟内,该事件发生了多次,那么总概率的估计不就有偏差了吗?(而且是偏小)
自然想到,将
(
算完一看,这不就是泊松分布吗?!
没错,泊松分布其实就是二项分布在
现在回头看用泊松分布逼近二项分布,是不是就觉得理所当然了?
这这样一个语境下,泊松分布的含义就是:
已知在一段已过去的时间内某事件发生了
从中我们也能发现泊松分布和二项分布各自适用的场景:
二项分布适合用在“实验次数”之类的场合,因为次数是离散的;而泊松分布适合用在“时间”或“空间”之类的场合,因为连续的时间或空间区间是可无限细分的。
下面这几种对于离散数据的分布,虽然书里没有单独提出,但我也一并在此介绍:
帕斯卡分布/负二项分布
几何分布
超几何分布
随机变量的分布函数
待续